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摘 要 : 幸运 成 像 技术 是 一 种 事后 图 像 恢复 技术 ， 它 能 够 有 效 减 小 大 气 汕 流 对 图 像 质 量 
的 影响 。 传 统 的 频 域 幸运 成 像 算法 在 效果 上 优 于 传统 的 空域 算法 , 它 主要 由 图 像 预 处 理 、 数 
据 选 择 和 数据 羡 加 三 部 分 组 成 。 本 文 提出 了 一 种 基于 现场 可 编程 门 阵列 FPGA) 的 频 域 幸 
运 成 像 算法 ， 并 在 FPGA 平台 上 构建 了 频 域 幸运 成 像 的 实验 系统 。 本 系统 通过 二 维 转 换 为 
两 个 一 维 实现 的 处 理 方式 对 天 文 图 像 数据 进行 了 二 维 快速 传 里 叶 变 换 (2D-FFT) ， 采 用 频 
域 数据 的 实 部 平方 与 虚 部 平方 之 和 代 蔡 幅 值 进行 数据 选择 , 所 得 到 的 高 分 辩 率 图 像 与 基于 中 
央 处 理 器 (CPU) 算法 处 理 的 结果 基本 相同 。 本 实验 系统 能 对 2000 Hw] 128x128 像素 的 图 像 
进行 频 域 幸运 成 像 处 理 ， 比 传统 的 基于 CPU 频 域 幸运 成 像 算 法 速度 快 13 EE, 实现 了 对 传 
统 的 频 域 幸运 成 像 算法 进行 加 速 , 同时 也 为 将 来 频 域 幸运 成 像 的 实时 化 提供 了 一 种 可 行 的 技 
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大 气 湛 流 是 大 气 中 一 种 不 规则 的 随机 运动 , 它 使 望远镜 的 实际 分 辨 率 远 低 于 望远镜 的 衍 
射 极限 分 辨 率 ， 它 是 限制 地 基 光 学 望远镜 空间 分 辩 率 的 一 个 主要 因素 路。 地 面 观 测 要 获得 接 
近 望 远 镜 衍射 极限 分 辩 率 的 图 像 ,可 以 使 用 事后 图 像 恢复 或 重建 技术 ,而 幸运 成 像 技术 就 是 
种 用 于 去 除 大 气 满 流 的 事后 图 像 恢 复 技术 中 。 幸 运 成 像 技 术 既 可 以 在 空域 上 进行 ， 也 可 
以 在 频 域 上 进行 , 但 是 空域 算法 的 选 图 主要 是 以 帧 为 单位 对 图 像 进行 选取 , 这 样 的 选 图 方式 
并 没有 考虑 到 图 像 数 据 在 某 些 方向 的 高 频 分 量 信息 , 在 选取 数据 处 理 时 , 会 导致 图 像 数 据 信 
息 的 浪费 ， 因 此 ， 在 2012 Æ, Garrel 等 人 提出 了 一 种 基于 传 里 时 变换 的 幸运 成 像 算法 ， 该 
算法 主要 由 图 像 预 处 理 、 数 据 选 择 和 数据 全 加 三 部 分 组 成 , 并 对 提出 的 方法 进行 了 模拟 实验 ， 
实验 结果 表明 , 此 算法 以 10% 的 数据 选择 率 进行 数据 选择 时 ,成像 效果 最 佳 呈 下 2013 
年 Mackay 以 实测 的 数据 进一步 证 实 了 频 域 幸运 成 像 的 有 效 性 ， 同时 也 指出 了 该 算法 相对 于 
室 域 算法 在 计算 量 上 存在 缺陷 各 fa 。2019 年 本 实验 室 胡 兴 等 人 对 传统 的 频 域 幸运 成 
像 算 法 进行 改进 ， 在 频 域 上 采取 了 分 组 数据 选择 的 方法 对 传统 的 频 域 幸运 成 像 算法 进行 加 
速 ， 但 该 算法 仍然 属于 事后 处 理 的 范畴 
上 述 频 域 幸运 成 像 算 法 都 是 基于 CPU 的 ， 因 其 串 行 的 处 理 方式 ， 难 以 实时 处 理 ， 使 观 
测 人 员 无 法 在 天 文 观 测 过 程 中 准确 地 了 解 观测 天 体 信息 , 因此 , 实时 化 是 幸运 成 像 技术 发 展 
的 必然 趋势 。 近 些 年 来 ， 两 大 并 行 的 硬件 加 速 器 引入 了 图 像 处 理 领域 5 1， 一 个 是 图 形 处 理 
器 (Graphics Processing Unit, GPU) ， 另 一 个 是 FPGA。 虽 然 两 者 都 具有 强大 的 并 行 处 理 能 
力 ， 但 是 FPGA 是 一 种 半 定 制 型 电路 ， 可 以 根据 实际 需求 去 编程 ， 而 GPU 一 旦 设计 完成 后 
HET, AIE, GPU 的 灵活 度 远 不 如 FPGA", HAS CEPR FPGA 来 实现 频 域 幸运 成 像 算 
法 的 加 速 。 
本 文 根 据 FPGA 强大 的 并 行 性 和 灵活 性 ， 提 出 了 一 个 基于 FPGA 的 频 域 毛 运 成 像 算 法 ， 
然后 按 FPGA 并 行 和 流水 线 设计 方法 ， 对 该 频 域 幸运 成 像 算法 用 Verilog 硬件 描述 语言 
(Hardware Description Language, HDL) 进行 了 设计 ， 并 在 Xilinx Spartan-7 上 进行 了 工程 实 
现 和 相关 测试 实验 .本 文 分 4 节 , 其 中 第 1 节 描 述 算法 , 第 2 节 介绍 该 算法 在 Spartan-7 FPGA 
上 的 系统 设计 过 程 ， 第 3 节 是 实验 结果 和 讨论 ， 第 4 节 是 结论 。 
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1 适用 于 FPGA 的 频 域 幸 运 成 像 算法 

传统 的 频 域 幸运 成 像 算 法 主要 由 图 像 预 处 理 、 频 域内 数据 选择 和 数据 释 加 三 部 分 组 成 ， 
在 频 域内 选择 数据 时 ， 需要 消耗 大 量 的 时 钟 资源 ， 导 致 算法 运行 速度 非常 缓慢 , 目前 只 有 胡 
兴 对 此 问题 探讨 过 ， 但 还 是 属于 事后 处 理 的 范畴 。 本 节 将 提出 一 个 新 的 频 域 幸运 成 像 算 法 ， 
see PGA 行 加 速 ， 且 在 台式 机 上 验证 了 算法 的 有 效 性 。 


1.1 算法 的 总 体 设计 

本 文 提出 的 基于 FPGA 的 频 域 幸运 成 像 算法 既 不 同 于 文献 3] 和 文献 [4] 的 传统 频 域 在 运 
成 像 算 法 ， 也 不 同 于 文献 [5] 的 改进 的 频 域 幸运 成 像 算 法 。 在 文献 [中 ，Carrel 等 人 提出 在 
频 域内 以 幅 值 为 基准 对 图 像 数据 进行 选择 ， 在 文献 3] 中 ，Mackay 在 证 实 了 频 域 幸运 成 像 有 
效 性 的 同时 ， 也 提出 了 该 算法 计算 量 非常 大 的 缺陷 ， 在 文献 [5] 中 ， 胡 兴 用 分 组 的 方法 对 频 
域 幸 运 成 像 算法 进行 了 加 速 , 但 处 理 速度 仍然 非常 缓慢 。 因此, 将 频 域 幸运 成 像 技术 在 FPGA 
上 处 理 是 该 算法 加 快 处 理 速度 的 有 效 途 径 。 

在 FPGA 上 进行 频 域 幸运 成 像 有 三 个 技术 难点 : 
第 一 ， 在 FPGA 上 无 法 对 图 像 数据 直接 进行 二 维 快速 傅 里 叶 变 换 。 图 像 数据 在 FPGA 
> E EREE MATLAB 平台 完全 不 一 样 ， 在 MATLAB 平台 可 以 直接 对 图 像 数 
据 做 二 维 变换 ， 而 在 FPGA 上 只 能 做 一 维 傅 里 时 变换 。 因 此 ， 根 据 二 维 傅 里 时 变换 的 原理 ， 
若 有 一 个 N ÍT M 列 的 空域 图 像 数据 f(x,y)， 其 二 维 傅 里 叶 变 换 后 的 频率 点 数据 可 为 F(u,v)， 
EFU, Vv) 为 复数 ， 定 义 式 如 (1) 式 所 示 : 


itr 


M-\1N-1 
F(u,v) = Vd fa, ye ad 


x=0 y=0 


对 定义 式 (1) 进行 分 解 ， 即 得 到 定义 式 如 (2) 式 所 示 : 


M-I N-I 


F(u, v)= FOIE yje N gi AUM) (2) 
x=0 y=0 


AP x, y 为 空域 图 像 的 行 数 和 列 数 ， 其 取 值 范围 为 x=0，1，…，M-1; y=0，1，…，N-1; 
式 中 u,v 为 频 域 图 像 的 行 数 和 列 数 ， 其 取 值 范围 为 u-=0，1，…，M-1; v=0，1，…，N-1。 
由 定义 式 CL) (2) 可 知 , 二 维 傅 里 叶 变 换 可 采用 二 维 转换 为 两 个 一 维 实现 的 算法 进行 处 理 ， 
0 将 2D-FFT 拆 分 成 行 方向 的 FFT 和 列 方向 的 FFT， 然 后 按 先后 次 序 进行 计算 。 通 常 而 言 ， 
一 维 FFT 算法 的 行列 先后 顺序 对 2D-FFT 运算 结果 没有 影响 ， 且 由 于 本 系统 是 对 128x128 
大 小 的 图 像 进 行 二 维 快速 傅 里 叶 变 换 ， 故 N，M 都 等 于 128。 
第 二 ， 传 统 的 频 域 幸 运 成 像 算 法 是 以 幅 值 为 基准 来 选择 数据 的 ， 即 按 式 (3) 选择 数据 。 


M (u,v) = JRe[F(u,v)P +Im[ F(u, v)? (3) 


式 中 Re[F(u,v)] 为 频 域 数据 的 实 部 ，Im[FQ,v)] 为 频 域 数 据 的 虚 部 ，M(u,v) 是 频 域 数据 的 模 。 

虽然 在 FPGA 上 可 以 方便 的 进行 整数 的 加 减 乘除 运算 ， 但 是 在 FPGA 上 计算 复数 幅 值 
的 算法 复杂 且 耗 时 ， 除 非 调 用 Cordic 知识 产权 核 〈International Property , ip) ， 但 是 此 ip 
核 将 消耗 大 量 的 硬件 资源 ， 不 适合 本 系统 在 中 小 规模 的 FPGA 上 实现 。 因 此 ， 本 文 提出 使 
用 频 域 数据 的 实 部 平方 与 虚 部 平方 之 和 代替 幅 值 进行 数据 选择 , 因为 实 部 的 平方 与 虚 部 的 平 
方 之 和 与 幅 值 的 变化 规律 是 一 致 的 ， 即 使 用 式 (4) 代替 式 (3) 进行 数据 选择 。 


M?’ (u,v) = Re[F (u,v)? + Im[F u,v) (4) 
第 三 ，FPGA 片上 存储 资源 有 限 。 由 于 本 系统 需要 对 大 量 的 图 像 频 域 数据 进行 存储 ， 而 
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片上 RAM 资源 远 远 不 足 ， 因此， 本 系统 使 用 FPGA 片 外 大 容量 存储 器 进行 频 域 图 像 数 据 的 
存储 。 

本 文 提出 的 适用 于 FPGA 的 频 域 幸 运 成 像 算法 大 致 工作 流程 如 下 所 述 ; 

(1) 图 像 输入 ， 并 进行 高 斯 滤波 ; 

(2) 滤波 后 的 图 像 做 行 快 速 传 里 叶 变换 ; 

(3) 行 傅 里 时 变换 的 结果 用 乒乓 操作 的 方式 在 RAM 中 进行 转 置 ; 

(4) MARAM 中 读 出 数据 做 列 快速 传 里 叶 变 换 ， 并 将 结果 存 入 DDR3; 

(5) 从 DDR3 中 读 出 数据 ， 按 10% 的 比例 选择 数据 ; 

(6) 数据 县 加 ; 

(7) 对 又 加 数据 做 行 快速 依 里 叶 反 变换 ; 

(8) 行 傅 里 叶 反 变换 的 结果 在 RAM 中 进行 转 置 ; 

(9) 从 RAM 中 读 出 数据 做 列 快速 傅 里 叶 反 变换 ; 

(10) 将 列 傅 里 时 反 变 换 的 结果 分 成 两 路 ， 一 路 数据 进行 二 值 化 ， 并 送 入 HDMI 显示 

模块 进行 显示 ， 男 一 路 数 回 传 到 上 位 机 。 

在 以 上 工作 流程 中 ， 由 于 FPGA 具有 强大 的 并 行 处 理 能 力 ， 第 (1) 步 至 第 (4) 步 是 并 行 处 
理 的 ， 第 (5) 步 至 第 (8) 步 也 是 并 行 处 理 的 。 第 (1) 步 图 像 数据 是 通过 精简 吉 比 特 介质 独立 接口 
(Reduced Gigabit Medium Independent Interface，RGMID 输 入 的 ， 第 (2) 步 至 第 (4) 步 是 傅 里 叶 
正 变换 过 程 ， 即 图 像 数据 从 空域 变换 到 频 域 的 过 程 ， 第 (7) 步 至 第 (9) 步 是 伟 里 叶 反 变换 过 程 ， 
即 图 像 数据 从 频 域 变换 到 空域 的 过 程 。 
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1.2 算法 的 验证 

为 了 验证 该 频 域 幸运 成 像 算 法 的 可 行 性 , 同时 为 了 验证 该 频 域 幸运 成 像 重 建 的 高 分 辩 率 
图 像 比 空域 幸运 成 像 重 建 的 高 分 辨 率 图 像 效果 更 佳 ， 本 文 在 CPU+MATLAB 平台 分 别 做 了 
两 组 实验 ， 第 一 组 是 以 幅 值 为 基准 选择 数据 的 传统 频 域 算法 ， 第 二 组 实验 是 在 MATLAB 上 
模拟 本 文 提 出 的 算法 在 FPGA 上 的 实现 ， 并 与 文献 [10] 的 实验 结果 进行 对 比分 析 。 本 实验 的 
硬件 平台 是 Dell Precision T5500 图 像 工 作 站 ， 内 存 16GB, CPU 为 Xeon E5620， 显 卡 为 
NVIDIA GTX1080， 运 行 的 软件 环境 是 Windows 7 操作 系统 、MATLAB R2017a。 

在 MATLAB 中 对 随机 抽取 的 2000 帧 128 x 128 像 素 大 小 的 图 像 进行 频 域 幸 运 成 像 算 法 
处 理 ， 根 据 Garrel 等 人 及 胡 兴 等 人 的 研究 结果 显示 ， 数 据 选择 的 比例 取 10% 时 ， 频 域 幸运 
成 像 的 效果 是 最 好 的 。 第 一 组 实验 是 对 Garrel 等 人 提出 的 传统 频 域 算 法 进行 复 现 ， 其 正确 
性 已 经 过 多 次 验证 , 本文 将 不 再 详细 介绍 ; 第 二 组 实验 是 验证 本 文 提 出 的 频 域 幸 运 成 像 算法 
的 正确 性 。 这 两 组 实验 的 相关 结果 如 图 1、2 所 示 。 


Wj = -sum u f 


sum_u_f 
HH 128x128 double 


64 376.4095 384.0014 393.9555 412.9262 508.8520 686.7111 507.2008 414.3027 398.2838 385.9003) 375.9284 374.5754 369.6463 367.3767 
65 373.9176 379.3518 392.7328 406.6559 453.9716 511.0316 454.9955 408.6455 393.8191 382.8735, 375.2743 372.4034 369.3520 365.6716 
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1 传统 算法 的 结果 。 


Fig. 1 
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图 |; 维 图 : 


(a) 三 维 2 


灰 度 分 布 维 灰 度 图 ; (c) 峰值 数据 


; (b) 


The result of traditional algorithm. (a)3D gray distribution map; (b)2D gray image; (c)Peak data 
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算法 的 结果 。 
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(c) 


图 ; (D) 二 维 灰 度 图 ; (c) 峰值 数据 


Fig.2 The result of the paper’s algorithm. (a)3D gray distribution map; (b)2D gray image; (c)Peak data 


根据 上 述 的 实验 结果 ， 从 直观 上 看 不 
图 2(c) 所 示 ， 由 于 第 二 组 
数据 可 以 得 出 


如 图 1(c)、 
都 是 对 整数 进行 处 理 ， 从 
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的 算法 仅 在 小 数 部 分 存在 误差 ， 即 截 
频 域 算法 
F 价 函数 , 通过 数值 计算 进行 对 比分 析 , 其 中 FWHM 为 天 文 图 像 常 ) 
也 2 和 
象 质量 越 好 。 erate 


同时 ， 
的 图 像 质量 记 
数值 越 小 ， 说 明 图像 质 量 越 好 ， 
值 越 大 ， 说 明 图 


为 了 进一步 分 析 这 两 组 
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实验 是 模拟 算法 在 FPGA 上 的 实现 ， 所 以 整个 运算 过 程 


断 误差 ， 这 是 由 于 FPGA 只 


上 有 任何 误差 ， 然 后 对 两 组 实验 的 数据 进行 分 析 ， 
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JF FPGA 的 频 域 算法 跟 传 统 
对 整数 进行 处 理 造成 的 。 
图 的 优 劣 , 我 们 也 选择 了 3 种 客观 
评价 指标 ， 
F 价 函数 均 为 经 典 的 数字 图 像 消 介 指标 ， 数 
里 得 到 的 高 分 


种 算法 分 别 对 2000 帧 图 像 处 理 得 高 分 
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辩 率 结果 图 像 的 
[10] 空 域 幸 运 成 像 信 


表 1 两 组 频 域 算法 


评价 指标 值 , 这 


> 两 组 频 域 幸运 成 像 算 法 和 文献 
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ep 


平价 结果 
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和 空域 算法 的 图 像 质 : 


Tablel The evaluation results of image quality 
Evaluation functions Traditional algorithm The paper’s algorithm Reference[10] 
FWHM 0.188" 0.188" 0.215” 
Tenengrad gradient 29.03 27.86 13.95 
Laplacia gradient 19.63 19.61 11.34 


从 表 1 


可 以 看 出 ， 本 文 提出 的 频 域外 


FWHM 的 值 是 一 样 


法 与 传统 的 频 域 算法 相 比 ， 


的 ，Tenengrad 梯度 和 Laplacia 梯度 值 略 低 于 传统 的 频 域 算法 ， 这 都 是 FPGA 运算 过 程 中 产 


A 


法 略 差 ， 但 是 ， 从 表 1 
文 提出 的 频 域 算法 得 到 


H 


的 图 像 质量 


G 


文 提出 的 频 域 算法 是 可 行 且 有 效 的 。 


E 的 截断 误差 造成 的 ， 说 明 本 适用 于 FPGA 的 频 域 算法 得 到 的 高 分 辨 率 图 像 质量 比 传统 算 
本 文 提出 的 频 域 算法 数 和 
青 晰 度 ) 远 比 空域 算法 得 到 的 图 像 质量 


s 域 系统 的 数据 对 比 可 知 ， 本 
要 好 ， 也 说 明 本 


和 文献 [10] 空 
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既然 所 提 算 法 是 可 行 且 有 效 的 ， 那 么 只 要 FPGA 设计 合理 ， 就 可 以 缩短 处 理 时 间 ， 使 
频 域 幸运 成 像 在 FPGA 上 进行 加 速 ， 并 为 频 域 笠 运 成 像 的 实时 化 提供 一 种 可 行 的 技术 方案 。 
所 以 ， 在 完成 上 述 算法 设计 后 ， 频 域 幸 运 成 像 系 统 的 FPGA 实现 就 成 为 下 一 个 关键 问题 。 


2 频 域 幸运 成 像 算法 的 FPGA 设计 及 系统 实现 

算法 的 设计 及 实现 的 系统 通常 都 与 所 用 硬件 平台 相关 。 本 文 的 频 域 幸运 成 像 算法 的 硬件 
实现 平台 是 以 Xilinx 公司 Spartan-7 系列 的 XC7S50 芯片 为 核心 的 开发 板 和 一 台 CPU X Xeon 
E5620 的 工作 站 ， 设 计 开 发 环境 是 Vivado2019.1， 采 用 Vivado 平台 上 的 内 髓 式 逻 辑 分 析 仪 
和 ModelSim SE 10.7 进行 硬件 设计 的 验证 与 调试 。 在 本 系统 oan 将 前 面 提出 的 
算法 用 Verilog HDL 进行 了 逻辑 设计 ， 并 在 FPGA 硬件 上 实现 。 本 文 将 重点 介绍 系统 的 总 体 
设计 以 及 FFT_IFFT 模块 、 数 据 选择 模 块 的 算法 及 其 FPGA 实现 。 下 面 分 3 seen 绍 具体 
的 设计 与 实现 过 程 。 


2.1 频 域 幸运 成 像 系 统 的 总 体 设 计 

本 系统 主要 包含 了 三 大 部 分 ， 即 数据 的 传输 、 数 据 的 运算 及 数据 的 存储 。 由 于 系统 将 来 
要 面向 的 是 实时 应 用 ,对 数据 的 传输 速度 要 求 比较 高 ， 因 此 , 采用 了 和 干 兆 以 太 网 进行 数据 传 
fi; 在 数据 的 运算 方面 ， 主 要 涉及 到 了 二 维 快速 傅 里 叶 变 换 ， 而 在 FPGA 上 无 法 对 图 像 数 
据 直 接 做 二 维 快速 传 里 叶 变 换 , 故 本文 使 用 了 二 维 转换 为 两 个 一 维 实现 的 方式 对 天 文 图 像 数 
据 做 二 维 快速 傅 里 叶 变 换 ; 在 数据 的 存储 方面 , 使 用 了 第 三 代 双 倍数 据 率 同步 动态 随机 存 取 
存储 器 (Double-Data-Rate Three Synchronous Dynamic Random Access Memory, DDR3) ， 
因为 本 文 是 对 2000 Wi 128x128 像素 的 图 像 进行 处 理 ， 而 FPGA 的 片上 RAM 资源 无 法 满足 
本 系统 的 存储 要 求 ， 故 采用 了 上 方 外 DDR3 资源 对 数据 进行 储存 。 并 用 Verilog HDL 对 系统 设 
计 进 行 实现 。 系 统 的 总 体 结构 框图 如 图 3 所 示 。 
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图 3 本 系统 的 总 体 结构 框 
Fig3. Overall structure of the System 
由 于 受到 了 本 系统 所 使 用 的 FPGA 硬件 平台 片上 RAM 资源 的 限制 ,目前 只 能 使 用 2000 
Wi 128x128 像素 的 短 曝光 图 像 作为 原始 图 像 进行 频 域 幸运 成 像 处 理 ， 并 最 终 以 128x128 像 
素 大 小 显示 出 频 域 幸运 成 像 的 结果 。 


2.2 FFT_IFFT 算法 及 其 实现 模块 设计 
传统 的 空域 幸运 成 像 算法 是 在 空域 上 进行 选 图 和 个 加 , 而 频 域 笠 运 成 像 算法 则 是 在 传 里 
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叶 图 像 的 每 个 频率 点 上 进行 数据 选择 和 闭 加 ， 因此， 要 想 实 现 频 域 幸运 成 像 ， 必 须 将 图 像 数 


据 做 傅 里 叶 变换 ， 并 在 频 域 上 进行 数据 的 选择 和 县 加 。Xilinx 公司 在 Vivado 平台 上 提供 了 


1 


一 维 快速 傅 里 叶 变换 的 ip 核 ， 但 由 


于 


图 像 数据 是 二 维 的， 因此 并 不 能 直接 使 用 一 维 FFT ip 


对 空域 图 像 数 据 进行 运算 , 因此 ,本 模块 使 用 了 二 维 转换 为 两 个 一 维 实现 的 方式 对 空域 图 像 


做 二 维 传 里 叶 变 换 。 本 系统 的 FFT_IFFT 模块 设计 结构 框图 如 图 4 所 示 。 本 模块 的 工作 流程 


描述 如 下 : 
Image pre- 1D-FFT with 1D-FFT with FIFO with 
processing CY depth 128 and | |,| RAMI »| depth 128 and |e] depth 128 and ==» 
module width 16 bits width 24 bits width 64 bits 
Lt.) RAM2 上 Data 
lection 
and 
Row- column casa 
module 
transposition 
1D-IFFT with RAM row- 1D-IFFT with FIFO with 
HDMI Ko depth 128 and oka: depth 128 and depth 128 and K 
displayer width 32 bits transposition width 32 bits width 64 bits 
Workstation 


图 4 2D-FFT 模块 的 结构 框图 


Fig4. The structure of 2D-FFT module 


(1) 将 预 处 理 模块 处 理 后 的 数据 2 


CHIT FFT 行 变换 , 再 将 行 变换 的 结果 在 RAMI, RAM2 


中 进行 转 置 ， 这 里 使 用 了 两 个 深度 16384， 宽 度 48 位 的 简单 双 端口 RAM 进行 乒乓 操作 (本 
系统 原始 图 像 数 据 为 16 位 ,经 一 次 傅 里 叶 正 变换 后 ,得 到 的 实 部 和 虚 部 数据 各 24 位 ， 故 这 
里 使 用 宽度 48 位 的 RAM 进行 转 置 操作 ) ， 即 当 RAM1 写 满 1 帧 图 像 数 据 时 ，RAMI1 进行 


读 操作 ， 读 出 的 数据 做 FFT 列 变换 ， 此 时 RAM2 进行 写 操作 ;， 当 RAM2 写 满 1 帧 图 像 数据 
时 ，RAM2 进行 读 操作 ， 读 出 的 数据 做 FFT 列 变换 ， 此 时 RAMI 进行 写 操作 。 最 后 再 将 行 


列 变 换 后 的 频 域 数据 存 入 DDR3 中 进行 数据 的 选择 和 县 加 。 
(2) 将 选择 加 后 的 数据 先 i 
一 个 深度 16384， 宽 度 64 位 的 简单 双 端 


行 行 IFFT， 再 将 逆 变 换 的 结果 存 入 RAM 中 ， 这 里 使 用 了 
O RAM 进行 转 置 ， 即 当 RAM 存 完 行 快速 傅 里 叶 逆 


变换 的 结果 后 ， 再 开始 进行 列 IFFT， 即 得 到 县 加 后 的 空域 图 像 数 据 ， 并 将 此 数据 分 为 两 路 ， 


一 路 数据 求 平均 , 然后 进行 重建 高 分 辩 率 图像 的 显示 ; 另 一 路 经 以 太 网 发 送 模块 将 数据 回 传 


至 上 位 机 。 


2.3 数据 选择 算法 及 其 实现 模块 设计 
传统 的 数据 选 方 择 式 是 将 所 有 图 像 相 对 应 的 所 有 频 域 点 的 幅 值 通过 排序 建立 索引 关系 ， 
选 出 幅 值 大 小 在 前 10% 的 频率 点 数据 ， 这 种 数据 选择 的 方式 计算 量 非常 大 ， 并 且 消 耗 的 硬 


件 资源 也 很 多 ， 即 使 是 Xilinx M 


式 所 消耗 的 硬件 资源 。 因此 , 第 


一 ， 本 文 使 有 


本 文 使 用 频 域 数据 的 实 部 平方 和 


如 图 5 所 示 。 数 据 选 择 的 工作 流程 如 下 : 


出 的 高 端 Vertex-7 系列 FPGA 也 无 法 满足 这 种 数据 选择 方 
选择 数据 但 不 排序 的 方式 进行 数据 选择 , 第 二 ， 
1 虚 部 平方 之 和 代替 幅 值 选择 数据 , 具体 的 模块 设计 结构 框图 


HH 
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Fig5. The structure of data selection module 


首先 ， 从 DDR3 中 读 出 图 像 的 频 域 数据 ， 读 完 第 1 帧 图 


像 的 第 一 个 数据 经 FIFO 存 入 到 


RAM 中 后 ， 下 一 次 读 出 的 就 是 第 2 帧 图 像 相 对 应 的 数据 《〈 即 第 一 个 数据 ) ， 且 以 同样 的 方 


RFA RAM 中， 一 直到 第 200 帧 相对 应 的 数据 存 入 RAM 
对 应 的 数据 先 存 入 FIFO : 
的 数据 的 实 部 平方 与 虚 部 平方 之 和 进行 比较 , 找 出 最 小 的 那 


后 ， 即 从 第 201 帧 开始 ， 读 出 相 


并 在 该 数据 存 入 RAM 之 前 ， 要 先 将 RAM 中 前 200 相对 应 点 


个 数值 及 地 址 , 再 将 该 任意 数据 


的 实 部 平方 与 虚 部 平方 之 和 跟前 面 找 出 的 最 小 的 数值 进行 比较 ， 若 大 于 前 面 找 出 的 最 小 值 ， 


则 将 该 数据 存 入 前 面 找 出 最 小 值 的 地 址 ， 若 小 于 前 面 找 出 的 


3 实验 结果 及 其 对 比分 析 


最 小 值 ， 则 该 数据 直接 舍 去 。 从 


第 202 帧 到 第 2000 Wi, 一 直 重 复 第 201 帧 的 第 一 个 数据 这 个 过 程 ， 当 第 2000 帧 相对 应 的 数 
据 存 完 后 ，RAM 将 该 200 个 数据 送 到 县 加 模块 进行 琶 加 。 其 次 ， 将 每 帧 图 像 的 第 2 个 至 第 
16384 个 数据 完全 重复 前 述 的 操作 ， 即 完成 了 所 有 图 像 的 频 域 数据 选择 。 


为 了 验证 本 文 提出 的 数据 选择 方法 在 FPGA 上 的 实现 是 正确 的 ， 使 用 内 骨 式 逻辑 分 析 
仪 对 数据 选择 模块 的 数据 进行 抓 取 ;为 了 验证 频 域 笠 运 成 像 算 法 在 FPGA 硬件 平台 上 实现 


的 正确 性 ， 本 文 以 同样 的 算法 在 CPU+MATLAB 平台 上 进行 模拟 实验 ， 并 将 此 算法 在 两 个 


平台 上 处 理 的 结果 进行 对 比分 析 。 


本 文采 用 2016 年 10 月 20 日 在 云南 天 文 台 丽江 观测 站 对 天 文 双星 HDS 70 的 观测 图 像 ， 


因 受 FPGA 硬件 资源 的 限制 ， 多 次 随机 从 10000 帧 图 像 中 抽 
像素 大 小 的 天 文 目标 短 曝光 图 像 进 行 处 理 。 


k 10000 帧 ， 这 组 图 像 的 观测 条 件 和 参数 见 文 [9] 。 在 图 像 帧 数 以 及 图 像 大 小 的 选取 上 ， 


HX 2000 帧 ， 并 裁剪 成 128 x 128 


3.1 频 域 幸运 成 像 在 FPGA 平台 上 的 实验 结果 及 对 比分 析 


3.1.1 数据 选择 算法 结 


本 系统 采用 的 是 2000 帧 图 像 每 个 相对 应 的 频率 点 都 选 出 200 个 频率 点 的 数据 选择 方法 ， 


即 10% 的 数据 选择 比例 。 为 了 使 内 嵌 逻 辑 分 析 仪 抓 取 的 数据 更 加 直观 ， 这 里 截取 了 前 10 行 
1 


的 部 分 数据 按 10% 的 比例 进行 数据 选择 , 即 10 行 数据 选 出 


ILA Status: Idle 


2, 048 


5418328 


行 。 数据 选择 结果 如 图 6 所 示 。 
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(b) 
6 数据 选择 的 结果 。(a) 前 10 行 的 部 分 数据 ; (b) 选 出 的 数据 
Fig.6 The result of the data selection. (a)the part data of the first 10 lines; (b)selected data 


Ds 


从 图 6(a)、 图 6(b) 中 可 以 看 出 ,每 行 相对 应 数据 的 实 部 平方 与 虚 部 平方 之 和 最 大 的 那个 
数 被 选 出 , 同样 也 是 幅 值 最 大 的 那个 数 被 选 出 , 说明 内 艇 逻辑 分 析 仪 抓 取 的 数据 结果 是 正确 
的 ， 也 说 明 本 文 提 出 的 数据 选择 算法 是 正确 的 。 
3.1.2 频 域 幸运 成 像 在 FPGA 和 MATLAB 上 的 结果 分 析 

本 系统 的 硬件 平台 是 以 Xilinx 公司 Spartan-7 系列 的 XC7S50 芯片 为 核心 的 开发 板 。 本 
系统 基于 FPGA 上 实现 的 频 域 幸 运 成 像 算 法 的 验证 ， 采 用 10% 的 数据 选择 比例 做 处 理 。 由 
于 在 MATLAB 和 FPGA 上 所 得 的 高 分 辨 率 图 像 不 易 进 行 比较 ， 故 本 系统 在 FPGA 和 
MATLAB 上 均 对 算法 处 理 所 得 的 高 分 辨 率 图 像 做 了 相同 的 锐 化 ， 将 最 终 得 到 的 高 分 辩 率 图 
像 中 感 兴趣 的 目标 或 区 域 突出 出 来 ， 分 别 得 到 了 如 图 7(a)、7(b) 所 示 的 锐 化 图 像 。 


hoo 


(a) (b) 
7 频 域 幸运 成 像 处 理 结果 。(a) FPGA 处 理 结 果 ; (b) MATLAB 处 理 结果 
Fig.7 Result of frequency-domain lucky imaging.(a)Result of FPGA processing;(b)Result of MATLAB processing 


Ds 


图 7 (a) 是 由 以 太 网 回 传 到 上 位 机 的 图 像 数 据 经 锐 化 后 调用 MATLAB 函数 显示 的 结果 
el, Al 7(b) 是 在 MATLAB 上 进行 频 域 幸运 成 像 算法 处 理 并 做 相同 锐 化 后 的 结果 图 。 通 过 对 
比 ， 可 以 看 出 两 帧 图 像 是 完全 相同 的 ， 从 而 验证 了 本 系统 在 FPGA 上 实现 的 频 域 幸 运 成 像 
算法 是 正确 的 。 但 是 ， 由 于 FPGA 只 能 处 理 整数 ， 所 以 在 数据 进行 快速 傅 里 叶 变 换 时 ， 会 
产生 截断 误差 ， 不 过 该 误差 非常 的 小 ， 通 常 在 一 个 数 以 内 。 为 了 使 数据 的 对 比 更 加 的 直观 ， 
在 重建 后 的 高 分 辨 率 图 像 数据 做 平均 之 前 〈 即 200 帧 图 像 过 加 起 来 的 结果 ) ， 随 机 截取 了 一 
Pt FPGA 处 理 后 的 数据 《使 用 内 抱 式 逻辑 分 析 仪 抓 取 数据 ) 与 MATLAB 处 理 后 的 数据 进行 
对 比 ， 发 现 大 部 分 数据 误差 都 在 200 以 内 ， 即 做 完 平 均 后 误差 基本 上 都 在 1 之 内 ， 这 说 明 图 


像 数 据 在 做 快速 传 里 叶 变 换 时 产生 的 截断 误差 对 图 像 的 质量 很 小 ， 随 机 截取 的 数据 如 图 
8(a), 8(b) AAS: 


ILA Status: Idle 


sum uf 
HH 128x128 double 
2 3 4 5 6 7 8 9 10 11 12 13 
2 64975 64922 64907 64968 64882 65132 65036 65155 65055 64975 64986 64931 


(b) 
图 8 频 域 幸 运 成 像 处 理 结果 的 部 分 数据 。(a) FPGA 处 理 结果 ; (b) MATLAB 处 理 结果 
Fig.8 The part data of frequency-domain lucky imaging results. (a)By FPGA; ( b) By MATLAB 


3.2 时 钟 消耗 对 比 
将 本 文 所 提出 的 基于 FPGA 频 域 幸运 成 像 算 法 和 文献 [10] 赵 盼 孜 提出 的 基于 FPGA 幸运 
成 像 算 法 《空域 ) 对 1000 帧 原始 图 像 进行 幸运 成 像 实验 ， 就 它们 的 算法 运行 时 间 、 图 像 数 
据 读 取 时 间 和 总 运行 时 间 进 行 对 比 ， 实 验 结果 如 表 2 所 示 。 
表 2 1000 帧 128 x 128 像 素 大 小 的 天 文 图 像 的 幸运 成 像 算 法 运行 时 间 《〈 单 位 ; 秒 ) 


Table 2 Running times ( in seconds) 


Computing system and platform Time for algorithm Time for image transmission Total 


ZHAO’s system (FPGA ) 2.45 41.94 44.39 
The paper’s system (FPGA) 1.94 4.99 6.93 
TE: 由 于 赵 盼 孜 系统 处 理 能 力 有 限 ， 所 以 这 里 只 对 1000 帧 图 像 进行 实验 。 


由 于 频 域 幸运 成 像 算 法 处 理 的 数据 量 远 比 空域 幸运 成 像 要 多 , 因此 , 频 域 绊 运 成 像 的 算 
法 复杂 度 也 比 空域 幸运 成 像 要 高 得 多 , 但 是 从 表 2 可 以 看 出 , 本 文 所 提出 的 频 域 幸运 成 像 算 
法 在 FPGA 平台 上 的 处 理 速度 却 比 赵 盼 孜 的 空域 系统 快 了 0.51 秒 ， 这 说 明 本 算法 充分 的 利 
JT FPGA 的 并 行 性 和 灵活 性 优势 ， 本 系统 像素 读 取 速 度 比 赵 盼 孜 的 空域 系统 像素 读 取 速 
度 快 8.4 倍 ， 这 是 因为 本 系统 采用 干 兆 以 太 网 传输 方式 取代 了 SD 卡 的 传输 方式 ， 本 系统 的 
平均 运行 速度 是 赵 盼 孜 空域 系统 的 6.4 倍 ,这 说 明了 本 算法 在 FPGA 实现 的 合理 性 与 正确 性 。 


4 结论 


本 文 在 仔细 分 析 Garrel 等 人 提出 的 一 种 基于 传 里 叶 变换 的 可 和 运 成 像 算法 以 及 胡 兴 等 人 
提出 的 一 种 改进 的 频 域 幸运 成 像 算 法 后 ， 提 出 了 基于 FPGA 的 频 域 幸运 成 像 算 法 ， 并 将 该 
频 域 幸运 成 像 算法 在 FPGA 上 实现 了 加 速 。 首 先 ， 本 文 对 算法 进行 了 详细 的 概述 ， 并 在 
MATLAB 上 验证 了 该 算法 是 可 行 且 有 效 的 ， 同 时 验证 了 本 文 提出 的 频 域 算法 在 成 像 效 果 上 


要 优 于 空域 算法 ; 其 次 ， 本文 对 算法 的 总 体 设计 以 及 二 维 快速 侍 里 叶 变 换 模块 ,数据 选择 模 


块 ， 


数据 合 加 模块 的 设计 思路 进行 了 介绍 ， 最 后 ， 本 文 在 一 块 中 小 规模 低 成 本 的 FPGA FF 


发 板 上 进行 了 系统 的 实现 ， 并 展示 了 相应 模块 的 测试 结果 与 验证 过 程 。 由 于 MATLAB 的 代 
码 效 率 是 比较 低 的 ， 不 太 适 合用 于 天 文 观测 ， 而 比较 合适 用 来 做 算法 验证 或 实验 结果 分 析 ， 


因此 , 本文 将 该 频 域 系统 在 FPGA 平台 上 的 实验 结果 与 MATLAB 平台 上 的 实验 结果 进行 了 


对 比 ， 证 明了 该 系统 在 FPGA 上 实现 的 正确 性 。 虽 然 本 设计 方案 还 存在 着 不 足 之 处 ， 跟 动 
态 实 时 化 相 比 还 有 一 定 的 差距 ,但 是 就 频 域 六 运 成 像 算 法 在 FPGA 上 的 具体 实现 , 并 在 FPGA 
上 实现 了 加 速 处 理 ， 为 频 域 幸 运 成 像 的 实时 化 提供 了 一 种 可 行 的 技术 方案 。 
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Absrtact: Lucky imaging is a post-processing image restoration technique , which can 
effectively reduce the impact of atmospheric turbulence on image quality. The traditional 
frequency-domain lucky imaging algorithm is better than the traditional space-domain lucky 
imaging algorithm in imaging results. It mainly consists of three parts: image preprocessing, data 
selection and data superposition. This paper presented a FPGA-based lucky imaging algorithm in 
frequency domain, and built an experimental system on FPGA. This system implements 
two-dimensional fast Fourier transform(2D-FFT) on astronomical image data by converting 
two-dimensional to two one-dimensional processing methods; And the sum of the square of the 
real part and the square of the imaginary part of the frequency data is used to replace the 
amplitude for data selection. The obtained high-resolution image reconstructed by the FPGA 
system is basically the same with the image processed by the CPU platform. The experimental 
system can process 2000 frames of 128x128 pixels image in frequency domain, what's more, the 
processing speed of the system on FPGA is 13 times faster than that on CPU. It accelerates the 
traditional frequency-domain lucky imaging algorithm while provides a feasible technical scheme 
for the real-time frequency-domain lucky imaging techniques in the future. 
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